課程資訊
課程名稱
新聞資料分析
Data Analysis in Journalism 
開課學期
106-2 
授課對象
社會科學院  新聞研究所  
授課教師
謝吉隆 
課號
JOUR7085 
課程識別碼
342 M3010 
班次
 
學分
3.0 
全/半年
半年 
必/選修
選修 
上課時間
星期三6,7,8(13:20~16:20) 
上課地點
新聞103 
備註
,含學術倫理 受試者保護0.50小時
限學士班三年級以上
總人數上限:30人 
Ceiba 課程網頁
http://ceiba.ntu.edu.tw/1062R 
課程簡介影片
 
核心能力關聯
核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述

▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎

1. 本課程主要對象為需要進行資料處理與分析的新聞所或傳播領域的學生。學生將知道如何搜集資料做為新聞報導的根據,包含政府開放資料或社群輿情,並自資料中發掘資料分佈與變化特徵來窺探事件現象的成因,藉以產製以資料為基礎的新聞報導。
2. 本課程主要目標為賦予學生有產製資料新聞的數據分析能力。故教學上將以實際案例應用與分析為主,而不著重在技術背景的統計與機率。
3. 課程內容涵蓋資訊處理軟體應用與R程式語言,主要要帶給學生獲取與處理資料、統計分析
與文字或數據資料探勘的能力。
4.
- 由於以無程式經驗者為對象,教師得依學生學習情形調整授課內容,但至少包含以下內容:
- R Programming basics
- Reading files including CSV and JSON formats
- Processing data by apply() family and dplyr package
- Exploratory Data Analysis with ggplot()
- Web crawler skill: getting data by GET and POST
- Web APIs e.g., Google Map, Facebook, and Twitter
- Text processing packages including tidytext and jiebaR 

課程目標
▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎

1. 具有資料處理能力,包含獲取、儲存、轉換、與清理資料的能力。
2. 具有獲取政府開放資料與社群資料(例如facebook或ptt)的能力。
3. 具有利用R來對資料進行統計分析與資料探勘的能力。
4. 具有利用R來進行文字分析與探勘的能力。
 
課程要求
▶︎▶︎▶︎ 由於本學期第一週逢228不上課,故請欲加選的同學填寫https://goo.gl/forms/dxLFfpBnnK1ZCmgx2,將依照本問卷內容決定授權碼名額,次週原則上不另外提供加選。◀︎◀︎◀︎

1. 修課生未能到課需依學校規定之請假程序請假,經查缺席者一次得扣學期總成績三分。
2. 本門課目的為產製資料新聞,故期末報告需以新聞體例撰寫,並由新聞所上兼任或專任之新聞專業背景教師進行新聞實用性評分。
3. 本課程預設對象為「無程式寫作經驗」且對資料新聞抱有興趣的學生。不建議有程式撰寫經驗者選修,亦不開放旁聽。理工科系學生由於相關程式學習資源多元,建議選修台大校方為培植學生資訊能力開設的精彩CS+X課程系列。 
預期每週課後學習時數
 
Office Hours
 
指定閱讀
- Text mining using r - http://tidytextmining.com/w
- R for data science - http://r4ds.had.co.nz/introduction.html 
參考書目
- R Graphics Cookbook http://www.cookbook-r.com/Graphs/
- Best jiebaR introduction http://blog.fens.me/r-word-jiebar/
- Learning R in Y minutes https://learnxinyminutes.com/docs/r/
- Datacamp for R https://www.datacamp.com/courses/tech:r 
評量方式
(僅供參考)
 
No.
項目
百分比
說明
1. 
Assignments  
40% 
- 作業繳交時間一律為作業公布後的五天內繳交,以便助教批改並協助同學回顧作業內容。作業公布七天內可接受補交,然成績以八折計算,次週上課後不再接受補交。 
2. 
Midterm project 
15% 
Visualizing to explore the data 
3. 
Final Project 
35% 
Applying text mining or machine learning model to final meaningful outomces 
4. 
Quiz 
10% 
 
 
課程進度
週次
日期
單元主題
第1週
2/28  288 Peace Memorial day 
第2週
3/07  Course overview: Installing and using R and RStudio  
第3週
3/14  R Basic; data types, import/export data 
第4週
3/21  Reading sheet data: csv, excel 
第5週
3/28  Reading hierarchical data: json and xml 
第6週
4/04  Spring break 
第7週
4/11  Getting data from the web
 
第8週
4/18  Web Crawler Design 
第9週
4/25  dplyr, ggplot, and text mining 
第10週
5/02  Project I presentation 
第11週
5/09  Statistic analysis basic
t-test, anova, correlation 
第12週
5/16  Unsupervised learning K-mean Clustering and PCA 
第13週
5/23  Text mining: Word-Document Frequency and N-gram 
第14週
5/30  Text mining: Topic modeling 
第15週
6/06  Text mining: Word2Vec 
第16週
6/13  Supervised learning: Linear Regression 
第17週
6/20  Supervised learning: Decision Tree and Random Forest 
第18週
6/27  Final Project